Optimización Convexa: Los Fundamentos de la Aproximación por Normas

Imagina que eres un sastre tratando de ajustar un traje estándar (el rango de $A$) a un cliente con proporciones únicas (el vector $b$). Sin importar cuánto ajustes las mangas o la cintura (los coeficientes $x$), el traje nunca será una prenda perfectamente ceñida. Estás buscando el "mejor" compromiso — una aproximación por normas que minimiza la tensión o el "residual" en cada costura.

El Marco Matemático

El objetivo principal es encontrar un vector $x \in \mathbb{R}^n$ tal que la combinación lineal $Ax = x_1a_1 + \dots + x_na_n$ aproxime lo mejor posible a $b$. Esto se refiere frecuentemente como la regresión de $b$ sobre los regresores (las columnas de $A$).

Nos centramos en el vector residual $r = Ax - b$. En la práctica, suponemos un sistema sobredeterminado donde $m > n$. ¿Por qué? Porque cuando $m = n$ y $A$ es no singular, el punto óptimo es simplemente $A^{-1}b$, lo que da un error cero — un caso trivial para la optimización.

🎯 Principio Fundamental

El problema de aproximación por normas (6.1) es un problema convexo y está garantizado que sea solucionable. Siempre existe al menos una solución óptima $\hat{x}$ que minimiza la distancia entre el objetivo y el subespacio alcanzable.

Variaciones Canónicas

Dependiendo del tipo de error que queramos penalizar, elegimos distintas normas:

1. Mínimos Cuadrados ($\ell_2$ Norma)

El enfoque más común. Minimiza la suma de los cuadrados de los residuos: $\|Ax - b\|_2^2$. Es sensible a valores extremos, pero ofrece una solución analítica mediante las ecuaciones normales.

2. Chebyshev / Minimax ($\ell_\infty$ Norma)

Minimiza el máximo residual absoluto $\max_i |r_i|$. Se utiliza cuando cada medición individual debe permanecer dentro de un límite estricto. Puede resolverse mediante el siguiente Problema Lineal (PL):

minimizar $t$
sujeto a $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

3. Suma de los Residuos Absolutos ($\ell_1$ Norma)

Minimiza $\sum |r_i|$. Este enfoque es resistente a valores extremos, ya que no eleva al cuadrado los errores. También puede resolverse mediante un PL:

minimizar $\mathbf{1}^T t$
sujeto a $-t \preceq Ax - b \preceq t$

Contexto de Estimación

En muchos campos de la ingeniería, asumimos que un estado verdadero $x$ está oscurecido por ruido: $y = Ax + v$. Nuestro objetivo es encontrar una estimación $\hat{x} = \text{argmin}_z \|Az - y\|$. Al elegir la norma, estamos haciendo implícitamente una suposición sobre la distribución estadística del ruido $v$.

\text{Minimizar } \|u - b\| \text{ sujeto a } u \in \mathcal{A} \quad (\text{donde } \mathcal{A} = \text{Rango}(A))

PREGUNTA 1

¿En el contexto de la aproximación por normas, por qué generalmente asumimos que $m > n$?

Porque si $m = n$, la solución es la trivial $x = A^{-1}b$ con residuo cero.

Para asegurar que el problema permanezca no convexo.

Porque la norma L1 requiere más variables que restricciones para ser solucionable.

Para garantizar que la matriz A siempre sea singular.

PREGUNTA 2

¿Qué formulación de Programación Lineal (PL) representa correctamente el problema de aproximación de Chebyshev (minimax)?

minimizar $t$ sujeto a $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

minimizar $\mathbf{1}^T t$ sujeto a $-t \preceq Ax - b \preceq t$

minimizar $\|Ax - b\|_2$ sujeto a $x \succeq 0$

minimizar $t$ sujeto a $Ax - b = t$

PREGUNTA 3

Estás calibrando un sensor y quieres asegurarte de que ninguna medición individual se desvíe del modelo más que una cantidad fija. ¿Qué norma deberías usar?

L∞ (Chebyshev)

L₁ (Suma de Residuos Absolutos)

L₂ (Mínimos Cuadrados)

La Norma de Frobenius

PREGUNTA 4

¿Qué es cierto sobre la solubilidad del problema de aproximación por normas (6.1)?

Siempre es solucionable y convexo.

Solo es solucionable si la matriz $A$ es simétrica.

Es no convexo si se usa la norma L1.

No tiene solución si el sistema es sobredeterminado.

PREGUNTA 5

En la expresión $y = Ax + v$, si $v$ representa ruido de Laplace (que tiene colas más pesadas que el ruido gaussiano), ¿qué norma de aproximación es estadísticamente más robusta?

L₁ (Suma de Residuos Absolutos)

L₂ (Mínimos Cuadrados)

L∞ (Chebyshev)

pseudo-norma L₀